The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
We study a novel and important communication pattern in large-scale model-parallel deep learning (DL), which we call cross-mesh resharding. This pattern emerges when the two paradigms of model parallelism - intra-operator and inter-operator parallelism - are combined to support large models on large clusters. In cross-mesh resharding, a sharded tensor needs to be sent from a source device mesh to a destination device mesh, on which the tensor may be distributed with the same or different layouts. We formalize this as a many-to-many multicast communication problem, and show that existing approaches either are sub-optimal or do not generalize to different network topologies or tensor layouts, which result from different model architectures and parallelism strategies. We then propose two contributions to address cross-mesh resharding: an efficient broadcast-based communication system, and an "overlapping-friendly" pipeline schedule. On microbenchmarks, our overall system outperforms existing ones by up to 10x across various tensor and mesh layouts. On end-to-end training of two large models, GPT-3 and U-Transformer, we improve throughput by 10% and 50%, respectively.
translated by 谷歌翻译
本文研究了体育视频上自动化机器描述的建模,最近取得了很多进展。尽管如此,最新的方法还没有捕捉人类专家如何分析体育场景。有几个主要原因:(1)使用的数据集是从非官方提供商那里收集的,该数据集自然会在这些数据集和现实世界应用程序训练的模型之间造成差距; (2)先前提出的方法需要广泛的注释工作(即,像素级别的玩家和球分割)在本地化有用的视觉特征上以产生可接受的结果; (3)很少有公共数据集可用。在本文中,我们提出了一个新颖的大型NBA数据集,用于体育视频分析(NSVA),重点是字幕,以应对上述挑战。我们还设计了一种统一的方法,将原始视频处理成一堆有意义的功能,并以最小的标签工作进行了处理,这表明使用变压器体系结构对此类功能进行交叉建模会导致强大的性能。此外,我们通过解决了另外两个任务,即精细的运动动作识别和显着的球员识别,证明了NSVA的广泛应用。代码和数据集可在https://github.com/jackwu502/nsva上找到。
translated by 谷歌翻译
联邦学习(FL)已成为一种前瞻性解决方案,可促进对高性能的集中模型的培训,而不会损害用户的隐私。尽管成功,但目前的研究受到了在实验初期建立现实的大规模FL系统的可能性的限制。仿真可以帮助加速这一过程。为了促进异构客户的有效可扩展的FL模拟,我们设计和实施ProteA,这是使用FL框架花朵在联合系统中灵活且轻巧的客户型分析组件。它允许自动收集系统级统计信息并估算每个客户所需的资源,从而以资源感知方式运行模拟。结果表明,我们的设计成功地增加了1.66 $ \ times $ $更快的壁挂时间和2.6 $ \ times $更好的GPU利用率的平行性,这可以对异构客户进行大规模实验。
translated by 谷歌翻译
训练神经网络的一种常见方法是将所有权重初始化为独立的高斯向量。我们观察到,通过将权重初始化为独立对,每对由两个相同的高斯向量组成,我们可以显着改善收敛分析。虽然已经研究了类似的技术来进行随机输入[Daniely,Neurips 2020],但尚未使用任意输入进行分析。使用此技术,我们展示了如何显着减少两层relu网络所需的神经元数量,均在逻辑损失的参数化设置不足的情况下,大约$ \ gamma^{ - 8} $ [Ji and telgarsky,ICLR, 2020]至$ \ gamma^{ - 2} $,其中$ \ gamma $表示带有神经切线内核的分离边距,以及在与平方损失的过度参数化设置中,从大约$ n^4 $ [song [song]和Yang,2019年]至$ n^2 $,隐含地改善了[Brand,Peng,Song和Weinstein,ITCS 2021]的近期运行时间。对于参数不足的设置,我们还证明了在先前工作时改善的新下限,并且在某些假设下是最好的。
translated by 谷歌翻译
超宽带(UWB)基于到达的时间差异(TDOA)的定位最近已成为一种有希望的,低成本和可扩展的室内定位解决方案,这特别适合多机器人应用。但是,似乎缺乏公共数据集来基准在混乱的室内环境中新兴的UWB TDOA定位技术。为了填补这一空白,我们提供了一个全面的数据集由UWB TDOA识别实验和基于DeCawave的DWM1000 UWB模块的飞行实验组成。在识别实验中,我们在各种视线(LOS)和非线(NLOS)条件下收集了低级信号信息,包括信噪比(SNR)和功率差值。对于飞行实验,我们使用四个不同的锚点进行了累积的$ \ sim $ 150分钟的现实飞行,平均速度为0.45 m/s。在飞行过程中收集了包括UWB TDOA,惯性测量单元(IMU),光流,飞行时间(TOF)激光器和毫米精度的地面真相数据在内的原始传感器数据。数据集和开发套件可在https://utiasdsl.github.io/util-uwb-dataset/上获得。
translated by 谷歌翻译
作为算法公平性的概念,多核算已被证明是一个强大而多才多艺的概念,其含义远远超出了其最初的意图。这个严格的概念 - 预测在丰富的相交子群中得到了很好的校准 - 以成本为代价提供了强大的保证:学习成型预测指标的计算和样本复杂性很高,并且随着类标签的数量而成倍增长。相比之下,可以更有效地实现多辅助性的放松概念,但是,仅假设单独使用多学历,就无法保证许多最可取的多核能概念。这种紧张局势提出了一个关键问题:我们能否以多核式式保证来学习预测因素,以与多审核级相称?在这项工作中,我们定义并启动了低度多核的研究。低度的多核净化定义了越来越强大的多组公平性概念的层次结构,这些概念跨越了多辅助性和极端的多核电的原始表述。我们的主要技术贡献表明,与公平性和准确性有关的多核算的关键特性实际上表现为低级性质。重要的是,我们表明,低度的数学振动可以比完整的多核电更有效。在多级设置中,实现低度多核的样品复杂性在完整的多核电上呈指数级(在类中)提高。我们的工作提供了令人信服的证据,表明低度多核能代表了一个最佳位置,将计算和样品效率配对,并提供了强大的公平性和准确性保证。
translated by 谷歌翻译
随着机器人在现实世界中冒险,他们受到无意义的动态和干扰。在相对静态和已知的操作环境中已成功地证明了基于传统的基于模型的控制方法。但是,当机器人的准确模型不可用时,基于模型的设计可能导致次优甚至不安全的行为。在这项工作中,我们提出了一种桥接模型 - 现实差距的方法,并且即使存在动态不确定性,也能够应用基于模型的方法。特别地,我们介绍基于学习的模型参考适应方法,其使机器人系统具有可能不确定的动态,表现为预定义的参考模型。反过来,参考模型可用于基于模型的控制器设计。与典型的模型参考调整控制方法相比,我们利用神经网络的代表性力量来捕获高度非线性动力学的不确定性,并通过在称为Lipschitz网络的特殊类型神经网络的建筑设计中编码认证嘴唇条件来捕获高度非线性动力学的不确定性和保证稳定性。即使我们的关于真正的机器人系统的先验知识有限,我们的方法也适用于一般的非线性控制仿射系统。我们展示了我们在飞行倒置摆的方法中的方法,其中一个搁板的四轮电机被挑战,以平衡倒挂摆在悬停或跟踪圆形轨迹时。
translated by 谷歌翻译
由于存在动态变化,在标称环境中培训的强化学习(RL)控制策略可能在新的/扰动环境中失败。为了控制具有连续状态和动作空间的系统,我们提出了一种加载方法,通过使用$ \ mathcal {l} _ {1} $自适应控制器($ \ mathcal {l} _{1} $ AC)。利用$ \ mathcal {l} _ {1} $ AC的能力进行快速估计和动态变化的主动补偿,所提出的方法可以提高RL策略的稳健性,该策略在模拟器或现实世界中培训不考虑广泛的动态变化。数值和现实世界实验经验证明了所提出的方法在使用无模型和基于模型的方法训练的RL政策中的强制性策略的功效。用于真正的拼图设置实验的视频是可用的://youtu.be/xgob9vpyuge。
translated by 谷歌翻译
多任务学习是基于深度学习的面部表情识别任务的有效学习策略。但是,当在不同任务之间传输信息时,大多数现有方法都考虑了特征选择,这可能在培训多任务网络时可能导致任务干扰。为了解决这个问题,我们提出了一种新颖的选择性特征共享方法,并建立一个用于面部表情识别和面部表达合成的多任务网络。该方法可以有效地转移不同任务之间的有益特征,同时过滤无用和有害信息。此外,我们采用了面部表情综合任务来扩大并平衡训练数据集以进一步提高所提出的方法的泛化能力。实验结果表明,该方法在那些常用的面部表情识别基准上实现了最先进的性能,这使其成为现实世界面部表情识别问题的潜在解决方案。
translated by 谷歌翻译